2025年9月30日的时候,Sora再次更新,迎来了升级版Sora2,当时凭借着生成视频的流畅、连贯,一度让人产生了一种错觉,AI似乎已经不仅仅只是会画图、写字,而是开始理解现实世界。

但戏剧性的是,Sora2的故事并没有沿着实现AGI的方向一路狂飙。在2026年4月26日,在毫无征兆的情况下,OpenAI宣布关闭Sora的APP以及网页版本,这短短的几个月,经历了巨大的变化。这一幕仿佛是给AI热潮按下了暂停键。

Sora刚发布出来的时候,OpenAI还特意撰写一篇雄心勃勃的技术文章《Video generation models as world simulators》。将视频生成模型视作世界模拟器,也把这种模型视为通往AGI的关键步骤。因为Sora不仅仅是把文字变成视频,更像是在学习一个世界如何运转,物体是如何移动,镜头如何变化,人物如何与环境互动。也正是如此,Sora被很多人视为从文生视频工具走向世界模型的一个标志性节点。

当时的Sora几乎就是处于文生视频领域的统治地位。

在Sora推出之前的早期文生视频模型最大的问题,并不是“不能生成视频”,而是它们只是学会了让画面动起来,却还没有真正理解世界如何运转,人物会变形,手指会乱长,物体会凭空出现又消失,前一秒还是同一个人,后一秒就变成另一张脸。更复杂的动作,比如吃东西、走路、拿东西、转身,常常会因为缺乏物理和空间理解而显得非常怪异。

ModelScope Text-to-Video 工具生成

来自于Meta AI 2022

Sora宣传视频

也正因如此,“人物吃东西”这类场景一度成了观察文生视频能力的直观标准。它考验的不只是画面是否清晰,而是模型是否真的能维持物体、动作、因果关系和时间连续性。而 Sora 诞生的意义就在这里。它让人们第一次如此明显地感觉到,AI 视频不再只是把一帧帧漂亮画面拼接起来,而像是在尝试学习一个世界如何连续地运行。人物如何移动,物体如何受力,镜头如何推进,场景如何保持一致——这些原本属于“现实世界规则”的东西,开始在生成视频中显现出来。

这也是为什么Sora会被许多人视为世界模型的雏形。它真正令人震撼的地方,并不只是视频更清晰、更逼真,而是它似乎展现出了一种更深层的能力,在时间中维持物体、动作、空间和因果关系的连续性,仿佛正在学习现实世界如何运行。

那什么是世界模型?为什么其又被称为世界模拟器?

世界模型(World Model)是一种让人工智能在内部建立“虚拟世界”的能力。通俗地说,它让 AI 像人类一样去预测环境的下一步变化,不仅知道物体是什么,还能理解物体如何运动、如何与周围环境互动。

传统的大模型(如语言模型或图像生成模型)主要关注“内容生成”,预测下一个词,生成一张图片。而世界模型关注的是动态变化和因果关系,如果一个人把杯子推向桌边,杯子可能会掉落;如果一个小球从斜坡滚下,它会沿着物理规律移动。AI 在内部模拟这些变化,就形成了它的“认识”。

世界模型概念图

由于世界模型本质上是在AI 内部建立一个可预测环境的模拟器,它也被称为“世界模拟器(World Simulator)”。在这个模拟器中,AI 可以先“试验”不同操作的结果,然后选择最优行动策略。这种能力在机器人控制、自动驾驶、游戏智能和文生视频等领域都有潜在应用。

Sora 和类似的文生视频模型是世界模型概念的直观体现,通过生成连续的视频,模型不仅学习了画面特征,还在某种程度上学习了物体运动规律和场景连贯性。

但想要得到一个真正的“世界模拟器”,并非易事。它不仅需要生成视觉上逼真的画面,更必须理解当前世界的状态——知道物体在空间中在哪里,它们之间的关系,以及可能的交互方式。更重要的是,它还要预测未来可能发生的变化,并在内部模拟不同的行动结果。换句话说,它像人类在做决策前,在脑海中“预演”不同场景,然后选择最合适的行动。这样的能力,远超普通的图像生成或视频生成,它要求AI具备多维度的世界理解能力。

而在迈向世界模型的过程中,文本生成视频模型又几乎是最自然的起点。

原因很简单,视频本身就是世界运行的记录。它不像图片那样只定格某一瞬间,而是把物体的运动、人物的交互、场景的变化,以及事件之间的因果关系,都压缩在一帧又一帧的连续画面里。一个人走路时身体如何摆动,一辆车转弯时轨迹如何变化,一个物体被推动后如何移动——这些现实世界的规律,都被隐含地写进了视频数据中。

而文本则像是一种指令,为模型提供生成目标和行为方向。它告诉模型,这个场景里有什么,人物在做什么,物体应该如何运动,环境又是什么状态。

当一个模型经过了在海量视频数据上的预训练时,它学到的并不只是“如何生成一段好看的视频”。更重要的是,它开始捕捉世界在时间维度中连续展开的规律,物体不能凭空出现或随意消失,人物动作需要前后衔接,空间结构必须保持稳定,光影和视角变化也要符合基本的物理直觉。甚至在更复杂的场景中,事件之间还需要具有一定的因果逻辑——比如球被推了一下才会滚动,杯子受到碰撞才可能倒下。

不过,要让AI真正生成一段连续、稳定、符合常识的视频,并不是简单地把多张图片连在一起。模型需要同时处理文字理解、视觉生成、时间一致性、运动建模以及空间结构保持等多个问题。于是,围绕“如何让视频自然地动起来”,不同的技术路线逐渐发展出来。对于文本生成视频模型来说,主要的技术流派可以分为三种

01

生成对抗网络

——让模型在“真假博弈”中学会生成视频

早期视频生成模型很大程度上受到 GAN 的影响,它可以理解为一场“生成器”和“判别器”之间的真假博弈,生成器负责制造视频,判别器负责判断视频是真实数据还是模型生成。生成器不断尝试骗过判别器,判别器则不断提升辨别能力,二者在对抗中共同进步。在视频生成中,早期 GAN 方法通常会将视频拆分为内容和运动两部分,内容对应人物、物体和背景等相对稳定的信息,运动则描述它们随时间发生的变化。不过,GAN 的训练过程往往不够稳定,也容易出现模式崩溃。再加上视频比图像多了时间维度,模型不仅要生成真实画面,还要保证前后帧连续一致,因此 GAN 在长视频生成、复杂运动建模和精确文本控制方面仍面临较大挑战。

02

扩散模型

——噪声中一步步“还原”视频

相比于第一类的GAN一步到位的视频生成路线,扩散模型采用的是逐步生成的方式。在训练阶段,给图像逐步添加噪声,让模型学会清除噪声的能力;而在生成阶段,则从随机噪声开始,一步步去除噪声,最终生成符合于文本描述的视频。这种生成视频的方法是目前的主流路线。扩散模型的优势很明显,生成质量高、细节丰富、语义控制能力强,也更容易和文本编码器、图像生成模型、视频超分辨模块结合。因此,现在很多高质量文生视频系统都与扩散模型有关。相比于对抗性神经网络,扩散模型生成视频的时间以及帧率更高,但由于扩散模型需要进行多步迭代,导致其所需要的生成时间较长,计算成本也会更高。

03

自回归视频模型

——像写文章一样,一步步预测下一帧

它的思想和 GPT 写文字非常相似,GPT 会根据前面已经出现的词来预测下一个词,而自回归视频模型则会根据前面已经生成的图像帧或者是视频token,继续预测后面的画面。也就是说,它不是一次性生成完整视频,而是按照时间顺序一步步“续写”视频内容。前面的画面会为后面的生成提供上下文,例如人物的位置、动作方向、场景结构和物体状态都需要被延续下去。因此,自回归模型天然适合建模视频中的时间关系和动作连续性。不过,这种方法也有明显局限,由于视频需要逐步生成,速度通常较慢。如果前面某一步生成出错,后续内容也可能受到影响,导致误差不断累积。总体来说,自回归模型就像是在写一篇动态故事,它擅长根据已有内容推演后续发展,但也需要解决效率和长期稳定性的问题。

因此,无论是训练还是部署一个文生视频模型,都意味着巨大的算力成本。据公开资料,训练一个 11B 参数规模的开源视频模型 Open-Sora 2.0,成本可能达到约 20 万美元。而对于参数规模更大、训练数据更多、推理服务更复杂的闭源商业模型而言,实际投入往往只会更高。也正是在这样的背景下,文生视频模型的商业化和持续运行问题变得格外值得思考。它提醒我们,通向世界模型的道路,并不只是不断追求更震撼的生成效果。一个真正可用的世界模型,不仅要能够生成清晰、连续、符合物理直觉的视频世界,还必须能够以可接受的成本被部署和长期运行。

如果一个模型只能在极高算力消耗下生成短暂片段,那么它距离真正可交互大规模应用的世界模拟器,仍然还有很长一段距离。

​1.Train and Run Open-Sora 2.0 on HPC-AI.COM: State-of-the-Art Video Generation at a Fraction of the Cost Ha D, Schmidhuber J. World models[J]. arXiv preprint arXiv:1803.10122, 2018, 2(3): 440.

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

2.Brooks T, Peebles B, Holmes C, et al. Video generation models as world simulators[J]. OpenAI Blog, 2024, 1(8): 1. Bruce J, Dennis M D, Edwards A, et al. Genie: Generative interactive environments[C]//Forty-first International Conference on Machine Learning. 2024.

3.Tulyakov S, Liu M Y, Yang X, et al. Mocogan: Decomposing motion and content for video generation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1526-1535.

4.Li Y, Min M, Shen D, et al. Video generation from text[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).

5.Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in neural information processing systems, 2022, 35: 8633-8646.